实用机器学习1.4
简介
工业应用
角色
- 领域专家
- SDE 工程师
- 数据科学家
- 机器学习专家
升级路径
课程话题
数据 收集处理收据 训练 部署 监控
半监督学习
数据 3 个特性
自学习
众包挑战点
- 不能太复杂
- 多少任务、多少时间、计算成本
- 质量控制
主动学习
自训练
数据清理
数据错误
数据转换
特征工程
数据总结
流程表
机器学习介绍
类型
- 监督学习
- 自监督学习
- 半监督学习
- 自训练
- 无监督学习
- 类、分布,对抗模型,clustering, density estimation (GAN)
- 强化学习
组件
- 模型
- 损失函数
- 目标
- 最小化损失
- 优化
模型类型
- 决策树
- 线性模型
- 核函数
- 神经网络
决策树
分类树,可以做分类,也可以做回归
好处是可解释,常用语保险等需要解释的行业 坏处,非常不稳定,随着树变化。
工业界用的最多。结果还不错。不用调参。第一选择。
多次随机树,合并,提升稳定性
梯度提升决策树
残差
线性模型
最简单也同样最常用的模型。